Close

%0 Audiovisual Material
%4 sid.inpe.br/mtc-m16c/2020/11.05.16.41
%2 sid.inpe.br/mtc-m16c/2020/11.05.16.41.12
%T O KNN e o desafio do Titatnic: uma abordagem introdutória da ciência de dados
%D 2020
%A Silva Júnior, Antonio Carlos da,
%@affiliation Universidade Federal do Paraná (UFPR)
%@electronicmailaddress juniorssz@gmail.com
%B Workshop dos Cursos de Computação Aplicada do INPE, 20 (WORCAP)
%C São José dos Campos
%8 8-11 e 14-17 set. 2020
%I Instituto Nacional de Pesquisas Espaciais (INPE)
%J São José dos Campos
%S Vídeos
%X A ciência de dados é uma área de estudo multidisciplinar que tem se tornado cada vez mais popular entre as empresas de todo o planeta. Esta área tem como principal objetivo a extração de informações relevantes à partir de dados brutos, visando o melhor apoio à tomada de decisão. Esta ciência lida com técnicas estudadas há décadas, que vem ganhando destaque nos últimos anos em virtude do aumento da capacidade computacional para o processamento de um grande volume de dados que tem praticamente dobrado a cada ano. Estes dados são obtidos a partir de diversas fontes, como bancos de dados transacionais, redes sociais e dispositivos IOT, por exemplo. Contudo, eles necessitam de alguma intervenção profissional para a detecção e a eliminação de inconsistências, de modo a possibilitar as melhores e mais confiáveis análises. Dada a popularidade da ciência de dados entre as empresas e a dificuldade de se formar um profissional com boa capacitação nos pilares da ciência da computação, estatística / matemática e conhecimento de negócio, a demanda pelo cientista de dados no mercado de trabalho tem aumentado cada vez mais e, em consequência, o interesse pelo ingresso nesta nova profissão tem sido cada vez maior. O desafio do Titanic, promovido pela Kaggle que é uma plataforma que hospeda competições de ciência de dados, normalmente é a porta de entrada dos aspirantes a cientista de dados para o mundo da modelagem preditiva. No entanto, a falta dos recursos adequados para lidar com a etapa de preparação dos dados acaba comprometendo o sucesso da análise. Portanto, a proposta deste trabalho é uma abordagem por meio do conjunto de dados do desafio do Titanic, ao qual será demonstrada a etapa de tratamento e preparação dos dados com a utilização da linguagem de alto nível R apoiada pelo algoritmo KNN para a imputação de dados ausentes. Com a aplicação destas técnicas, além da obtenção de um conjunto de dados lapidado para aplicação da análise preditiva requerida pelo desafio, pode-se constatar que a abordagem é viável e plausível para ser aplicada em situações do mundo real, uma vez que os dados obtidos pelas empresas, mesmo em contexto e dimensões diferentes, muitas vezes são apresentados de forma semelhante. Este estudo tem o propósito de mostrar de maneira lúdica a importância de uma boa análise exploratória e do tratamento dos dados levantados, podendo assim auxiliar a Academia em estudos futuros, bem como orientar e incentivar os novos profissionais.
%9 tecnologia da informação
%@language pt
%3 KNN e desafio do Titanic_ Abordagem introdutória da ciência de dados - Antonio C. da Silva Jr.mp4
%O (15 min)


Close